阿里宣布Qwen3大模型更新性能超Kimi-K2 DeepSeek-V3等开源模型网经社电子商务研究中心电商门户互联网+智库

当前位置：100EC>产业数字化>阿里宣布Qwen3大模型更新性能超Kimi-K2 DeepSeek-V3等开源模型

阿里宣布Qwen3大模型更新性能超Kimi-K2 DeepSeek-V3等开源模型

作者：来源：网经社发布时间：2025年07月22日 11:24:07

(网经社讯)7月22日，阿里巴巴通义千问今日宣布更新了旗舰版Qwen3模型，推出 Qwen3-235B-A22B-FP8 非思考模式（Non-thinking）的更新版本，命名为Qwen3-235B-A22B-Instruct-2507-FP8。

屏幕截图 2025-07-22 112819.png

据网经社云计算台（CC.100EC.CN）了解，新的Qwen3模型，通用能力明显提升，包括指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等方面，在GQPA（知识）、AIME25（数学）、LiveCodeBench（编程）、Arena-Hard（人类偏好对齐）、BFCL（Agent能力）等众多测评中表现出色，超过Kimi-K2、DeepSeek-V3等顶级开源模型以及Claude-Opus4-Non-thinking等领先闭源模型（详见图2）。

此外，本次更新的Qwen3模型，还增强了以下关键性能：

1.在多语言的长尾知识覆盖方面，模型取得显著进步。

2.在主观及开放性任务中，模型显著增强了对用户偏好的契合能力，能够提供更有用的回复，生成更高质量的文本。

3.长文本提升到256K，上下文理解能力进一步增强。

目前，Qwen3新模型已在魔搭社区和HuggingFace上开源更新。

在技术特性方面，Qwen3融合了快速响应和深度思考两种模式。面对简单问题时，模型能够快速给出答案；遇到复杂任务时，则会启动多步骤推理机制。这种混合推理设计既保证了响应效率，又确保了复杂问题的处理质量。

模型在多项基准测试中表现突出。在数学推理能力评测AIME25中获得81.5分的成绩，在代码能力测试LiveCodeBench中突破70分关口。与此同时，在人类偏好对齐评估ArenaHard中，该模型以95.6分的成绩超越了多个国际知名模型。

浙江网经社信息科技公司拥有18年历史，作为中国领先的数字经济新媒体、服务商，提供“媒体+智库”、“会员+孵化”服务；（1）面向电商平台、头部服务商等PR条线提供媒体传播服务；（2）面向各类企事业单位、政府部门、培训机构、电商平台等提供智库服务；（3）面向各类电商渠道方、品牌方、商家、供应链公司等提供“千电万商”生态圈服务；（4）面向各类初创公司提供创业孵化器服务。

网经社“电数宝”电商大数据库（DATA.100EC.CN，免费注册体验全库）基于电商行业18年沉淀，包含100+上市公司、新三板公司数据，150+独角兽、200+千里马公司数据，4000+起投融资数据以及10万+互联网APP数据，全面覆盖“头部+腰部+长尾”电商，旨在通过数据可视化形式帮助了解电商行业，挖掘行业市场潜力，助力企业决策，做电商人研究、决策的“好参谋”。